城中村建筑物识别训练样本数据集

刘玉菲^1,2，吕蓓茹^1,3，彭玲^1*，吴同^1,3，刘赛⁴

1. 中国科学院空天信息创新研究院，北京 100101；2. 国科智慧（北京）智能科技有限公司，北京 100080；3. 中国科学院大学，北京 100049；4. 北京清软海芯科技有限公司，北京 100085

摘要：建筑物位置信息是精细化城市管理中的重要基础数据。城中村建筑物群落分布格局独特，具有建筑物密度高、街巷狭窄等特点，是城市遥感影像中具有明显结构特征的目标主体。城中村建筑物识别训练样本数据集是基于谷歌遥感影像，通过LabelMe软件绘制出2,328个城中村建筑物识别训练样本，利用深度学习之实例分割算法Mask R-CNN，提取得到建筑物信息。本数据集包括：（1）样本原始影像（Buildingsample_pic）；（2）实例分割结果（Buildingsample_mask）；（3）实例分割标注信息（Buildingsample_info）。本数据集共包括6,984个文件，存储于3个文件夹中，数据存储为.png和.yaml格式，数据量为499 MB（压缩为一个文件，数据量498 MB）。与本数据集相关的科学发现论文发表于《首届中国数字地球大会论文集》。

关键词：城中村；建筑物；深度学习；Mask R-CNN

DOI: 10.3974/geodp.2020.02.11

数据可用性声明：

本文关联数据已出版，可获取：刘玉菲, 吕蓓茹, 彭玲等. 城中村建筑物识别训练样本数据集[J/DB/OL]. 全球变化数据仓储电子杂志, 2020. DOI: 10.3974/geodb.2020.02.16.V1.

1 前言

随着城市建设和城市治理的不断发展，城中村问题已经受到广泛关注^[1^-^2]，城中村是城市扩张中在原有农村集体土地和农民宅基地上建成的居住区域，其中建筑物是城中村的重要组成部分。城中村建筑物展现了一种“城不像城、村不像村”的无序异质的病理聚居形态^[3]：建筑物密度偏高、街巷狭窄、违章搭盖等特点，其形态多样结构复杂，一直是学界研究的热点和难点。城中村建筑物群落是城市遥感影像中有着比较明显结构特征的目标主体，由于城中村建筑群落的独特分布与格局，对基于深度学习提取建筑物具有重要的研究意义。近年来，随着人工智能和深度学习的发展，有很多学者也开展利用深度学习提取建筑物方面的研究。相比于数据驱动法和模型驱动法，基于机器学习的建筑物提取需要的先验知识更少，在样本合适的情况下可以达到很高的提取精度^[4^-^7]。本文选取中国北方某大中型城市城中村作为样本绘制基础，基于空间分辨率为0.11 m的谷歌遥感影像，通过LabelMe软件共绘制出2,328个城中村建筑物样本。本研究为遥感影像基于深度学习之实例分割算法Mask R-CNN提取城中村建筑物提供了基础数据并提供一个实例分割样本应用案例，对人工智能的信息提取应用在城市治理中也有着现实意义。

2 数据集元数据简介

《城中村建筑物识别训练样本数据集》^[8]的数据集名称、短名名称、作者信息、地理区域、数据年代、空间分辨率、数据格式、数据量、数据集组成、数据计算环境、数据出版与共享服务平台、数据共享政策等信息见表1。

表1 《城中村建筑物识别训练样本数据集》元数据简表

条目	描述
数据集名称	城中村建筑物识别训练样本数据集
数据集短名	Samples_BuiUrbanVill
作者信息	刘玉菲，中国科学院空天信息研究院，国科智慧（北京）智能科技有限公司，18811519832@163.com 吕蓓茹，中国科学院空天信息研究院，中国科学院大学，1121222861@qq.com 彭玲，中国科学院空天信息研究院， pengling@aircas.ac,cn 吴同，中国科学院空天信息研究院，中国科学院大学，tongw_indus@126.com 刘赛，北京清软海芯科技有限公司，liusai@hesion3d.com
数据年代	2018-2019 空间分辨率 0.11 m
数据格式	.png、.txt、.yaml
数据量	498 MB（压缩后）
数据集组成	样本原始影像集；实例分割结果集；实例分割标注信息
基金项目	北京市科技计划课题（Z191100001419002）
数据计算环境	GPU: NVIDIA GP102 [TITAN Xp]; Python: 3.6; TensorFlow-gpu: 1.3.0; Keras: 2.0.8
出版与共享服务平台	全球变化科学研究数据出版系统 http://www.geodoi.ac.cn
地址	北京市朝阳区大屯路甲11号100101，中国科学院地理科学与资源研究所
数据共享政策	全球变化科学研究数据出版系统的“数据”包括元数据（中英文）、通过《全球变化数据仓储电子杂志（中英文）》发表的实体数据和通过《全球变化数据学报（中英文）》发表的数据论文。其共享政策如下：（1）“数据”以最便利的方式通过互联网系统免费向全社会开放，用户免费浏览、免费下载；（2）最终用户使用“数据”需要按照引用格式在参考文献或适当的位置标注数据来源；（3）增值服务用户或以任何形式散发和传播（包括通过计算机服务器）“数据”的用户需要与《全球变化数据学报》（中英文）编辑部签署书面协议，获得许可；（4）摘取“数据”中的部分记录创作新数据的作者需要遵循10%引用原则，即从本数据集中摘取的数据记录少于新数据集总记录量的10%，同时需要对摘取的数据记录标注数据来源^[9]
数据和论文检索系统	DOI，DCI，CSCD，WDS/ISC，GEOSS，China GEOSS，Crossref

3 数据研发方法

遥感影像样本根据具体用途分为目标检测样本、语义分割样本、实例分割样本^[6]。用于目标检测的样本需要对目标地物位置和地物类型进行标注，即勾绘目标地物的外接矩形框并标注其类别；用于语义分割的样本需要对目标地物的轮廓和地物类型进行标注，即勾绘目标地物的轮廓并标注其类别；用于实例分割的样本需要对单个目标地物的轮廓和地物类型进行标注，即勾绘单个目标地物轮廓并标注其类别。目前常用的样本绘制软件有LabelMe、ArcGIS、LabelImg。

本研究根据遥感影像结合地面实景照片使用LabelMe软件制作了城中村建筑物实例分割样本，用于深度学习实例分割算法。

绘制步骤：

（1）遥感影像选择

结合城中村建筑群落分布格局独特性——建筑物密度偏高、街巷狭窄、建筑密度大，选择0.11 m分辨率的谷歌遥感影像作为该数据样本集遥感影像数据。

（2）影像分割

将遥感影像分割为目标大小，一般为边长为2的指数次的正方形，该样本集将原始影像数据和标签切割成512×512大小用于后续模型训练。原始影像分割后得到pic文件，即样本原始影像集Buildingsample_pic，如图1-a所示。

（3）LabelMe勾绘城中村内建筑物

在LabelMe中根据每种建筑物的轮廓形状进行勾绘，并对其进行标注，标注格式为vbuilding*，即每绘制一个建筑物依次命名为vbuilding1、vbuilding2、vbuilding3……vbuilding*。

（4）格式转化

根据LabelMe生成的为json文件格式，需要转换为可运行文件t格式：其中，掩膜图片为mask格式文件，即实例分割结果集Buildingsample_mask，如图1-b所示；分割标注信息为info文件，即实例分割标注信息集Buildingsample_info。图1-b中所示的每种颜色代表一个建筑物。


图1-a 3号样本Google Earth影像图	图1-b 3号样本掩膜图片（空间数据mask格式，属性信息info文件）

图1 样本原始影像和掩膜图示例

（5）样本增加

将生成的掩膜图片（mask）和原始影像（pic）分别进行水平翻转、垂直翻转、90°旋转、180°旋转、270°旋转，以增加样本数量，如图2所示。


图2-a 原始图像	图2-b 水平翻转

图2-c 垂直翻转	图2-d 90°翻转

图2-e 180°翻转	图2-f 270°翻转

图2 数据扩大示意图

4 数据结果与验证

4.1 数据集组成

城中村建筑物样本数据集包括3个子集（表1），共绘制2,328个城中村建筑物样本，该数据集用软件压缩为*.rar后，数据量为498 MB。

表2 数据集文件组成说明表

序号	文件名称	文件说明	文件格式	数据量（MB）
1	Buildingsample_pic	样本原始影像	.png	488
2	Buildingsample_mask	实例分割结果	.png	10.6
3	Buildingsample_info	实例分割标注信息	.yaml	0.96

图3 Mask R-CNN算法提取城中村建筑物流程图

4.2 数据结果验证

利用深度学习之实例分割算法Mask R-CNN提取建筑物信息^[10^-^13]，并对678个城中村建筑样本进行检测验证，使用Mask R-CNN提取城中村建筑的算法如图3所示。

为了定量评价算法性能，采用平均精度（Average Precision，AP）作为实验精度评价标准。AP为准确率-召回率曲线与X、Y轴构成的面积，采用式(1)来计算。AP越高代表模型性能越好，反之亦然。AP的计算涉及对准确率（precision）和召回率（recall）的计算，准确率指正确检测目标数（TP）占所有被检测目标数的比例，如式(2)所示；召回率指正确检测目标数（TP）占所有实际目标数的比例，如式(3)所示，其中，目标检测评价指标列于表3。

(1)

(2)

(3)

表3 目标检测评价指标

名称	英文名称	概念
TP	True Positive	被正确检测的正样本数
TN	True Negative	被正确检测的负样本数
FP	False Positive	被错误检测为正样本的负样本数
FN	False Negative	被错误检测为负样本的正样本数

注：正样本指属于建筑物的样本；负样本指不属于建筑物的样本。

为找出预测结果中正确检测的正样本和误检测为正样本的检测框，本文设置交并比（Intersection Over Union，IOU）来判断检测结果的正确性，设置阈值为0.5，当IOU>0.5时，认为检测结果可信，即为被正确检测的正样本，反之则为被错误检测为正样本的负样本。IOU具体计算公式见式(4)。

IOU=（检测建筑面积∩标签建筑面积）/（检测建筑面积∪标签建筑面积） (4)

经过验证，模型在测试集上的AP为0.66，单张城中村建筑物样本图片的最高检测精度AP达到0.995。城中村建筑物样本检测结果如图4所示。检测结果充分说明了该城中村建筑物样本数据集质量的有效性。


图4-a Google Earth影像图	图4-b 检测结果图

图4 检测结果分析对比

根据实例分割结果进行核密度估计、标准差椭圆、最近邻分析、面积统计等空间分析，结果表明：实验区平均建筑面积为75.08 m²，平均最近邻距离为0.90 m，根据核密度估算结果，剔除在建土地和城市道路后，得到该区域建筑密度为43.75%，绿地率为5.12%^[14]，根据中华人民共和国国家标准《城市居住区规划设计规范》，该区域为高密度居民住宅区^[15]。

5 结论

该样本集基于0.11 m空间分辨率谷歌遥感影像制作对城中村单体建筑物的位置、轮廓、类型进行了标注。通过实验，根据该样本提供了一个对城中村建筑进行实例分割的应用案例。实验表明：Mask R-CNN的网络结构在目标检测中的优势，该样本集在利用深度学习实例分割算法Mask R-CNN进行信息提取时具有较高的实用性。城中村建筑物样本的AP达到0.66，单张城中村建筑物样本图片的最高检测精度AP达到0.995。通过对678个城中村建筑样本进行检测验证说明该城中村建筑物样本数据集质量的有效性，为深度学习之实例分割提供了城中村建筑物样本数据集。

空间分析信息提取结果显示：通过空间分析有效反映出建筑物平均面积小、街巷狭窄、建筑密度大、建筑类型复杂的分布特点。

该样本集为利用遥感影像基于深度学习算法提取城中村建筑物提供了基础数据，在研究城中村内部空间分布特征、城中村治理等智能分析应用方面具有较好的现实意义。

作者分工：吴同负责数据集研制技术路线；刘玉菲、吕蓓茹采集处理城中村样本数据；吕蓓茹负责设计模型和算法；吕蓓茹、刘赛负责数据验证；彭玲负责数据组织、样本种类及制作流程制定以及价值判断。刘玉菲、吕蓓茹负责数据论文撰写。

参考文献

[1] 李志勇, 杨永春. 中国城中村问题研究进展[J]. 甘肃科技, 2008, 24(7): 7-11.

[2] 周新宏. 城中村问题: 形成, 存续与改造的经济学分析[D]. 上海: 复旦大学, 2007.

[3] 邓春玉, 王悦荣. 我国城中村问题研究综述[J]. 广东行政学院学报, 2008, 20(1): 93-97.

[4] 赵云涵, 陈刚强, 陈广亮等. 耦合多源大数据提取城中村建筑物——以广州市天河区为例[J]. 地理与地理信息科学, 2018, 34(5): 3, 13-19.

[5] 梁煜端. 无人机系统在城中村改造中的应用研究[J]. 北京测绘, 2018, 32(10):70-73.

[6] Mayunga, S. D. Semi-automatic building extraction in informal settlements from high-resolution satellite imagery [D]. Canada: University of New Brunswick, 2006: 1–298.

[7] 程滔. 遥感影像样本大数据建库与应用方法[J]. 计算机系统应用, 2017, 26(5):43-48..

[8] 刘玉菲, 吕蓓茹, 彭玲等. 城中村建筑物识别训练样本数据集[J/DB/OL]. 全球变化数据仓储电子杂志, 2020. DOI: 10.3974/geodb.2020.02.16.V1.

[9] 全球变化科学研究数据出版系统. 全球变化科学研究数据共享政策[OL]. DOI: 10.3974/dp.policy.2014. 05 (2017年更新).

[10] 季顺平, 魏世清. 遥感影像建筑物提取的卷积神经元网络与开源数据集方法[J]. 测绘学报, 2019, 48(4): 50-61.

[11] Lin, T. Y., Dollár, P., Girshick, R., et al. Feature pyramid networks for object detection [C]. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), IEEE Computer Society, 2017.

[12] Hirata, T., Kuremoto, T., Obayashi, M., et al. Deep belief network using reinforcement learning and its applications to time series forecasting [C]. International Conference on Neural Information Processing. Springer International Publishing, 2016.

[13] 付发, 未建英, 张丽娜. 基于卷积网络的遥感图像建筑物提取技术研究[J]. 软件工程, 2018, 21(6): 4-7.

[14] Lv, B. R., Peng, L., Wu, T., et al. Research on urban building extraction method based on deep learning convolutional neural network [J]. Earth and Environmental Science, 2020, 502: 012022.

[15] GB 50180—93. 城市居住区规划设计规范[S]. 北京: 中国建筑工业出版社, 2002.